from datasets import load_dataset

# 替换为你的本地文件路径
dataset = load_dataset(
    "parquet",
    data_files={ #由于无法访问到Hugface，这里加载下载好的文件
        "test": r"D:\JunTuan\zxli26\0303_swebench\SWE-bench_Lite\data\test-00000-of-00001.parquet",
        "dev": r"D:\JunTuan\zxli26\0303_swebench\SWE-bench_Lite\data\dev-00000-of-00001.parquet"
    }
)


# 查看字段
print(dataset["dev"][0].keys())

print("-------------------------------------------------")
# 1. 统计样本量
print("test:", len(dataset["test"]), "dev:", len(dataset["dev"]))
print("-------------------------------------------------")
# 2. 随机抽查一条样本的 problem_statement 非空
print(dataset["test"][42]["problem_statement"][:200])